home *** CD-ROM | disk | FTP | other *** search
/ Ian & Stuart's Australian Mac: Not for Sale / Another.not.for.sale (Australia).iso / fade into you / being there / About / Internet Statistics / rfc1296 Internet Growth 81-91 < prev   
Text File  |  1994-11-19  |  20KB  |  509 lines

  1.  
  2.  
  3.  
  4.  
  5.  
  6.  
  7.  
  8. Network Working Group                                          M. Lottor
  9. Request for Comments: 1296                             SRI International
  10.                                       Network Information Systems Center
  11.                                                             January 1992
  12.  
  13.  
  14.                       Internet Growth (1981-1991)
  15.  
  16. Status of this Memo
  17.  
  18.    This memo provides information for the Internet community.  It does
  19.    not specify an Internet standard.  Distribution of this memo is
  20.    unlimited.
  21.  
  22. Abstract
  23.  
  24.    This document illustrates the growth of the Internet by examination
  25.    of entries in the Domain Name System (DNS) and pre-DNS host tables.
  26.    DNS entries are collected by a program called ZONE, which searches
  27.    the Internet and retrieves data from all known domains.  Pre-DNS host
  28.    table data were retrieved from system archive tapes.  Various
  29.    statistics are presented on the number of hosts and domains.
  30.  
  31. Table of Contents
  32.  
  33.    Introduction....................................................   1
  34.    How ZONE Works..................................................   2
  35.    Problems with Data Collection...................................   3
  36.    Scope of the Study..............................................   3
  37.    N. Results......................................................   4
  38.    N.1 Number of Internet Hosts....................................   4
  39.    N.2 Number of Domains...........................................   6
  40.    N.3 Distribution of IP Addresses per Host.......................   7
  41.    N.4 Distribution of Hosts by Top-level Domain...................   7
  42.    N.5 Distribution of Hosts by Host Name..........................   8
  43.    Future Issues...................................................   8
  44.    RFC References..................................................   9
  45.    Security Considerations.........................................   9
  46.    Author's Address................................................   9
  47.  
  48. Introduction
  49.  
  50.    This document provides statistics on the growth of the Internet by
  51.    examining the number of Internet hosts and domains over a 10-year
  52.    period.  Before the Domain Name System was established, practically
  53.    all hosts on the Internet were registered with the Network
  54.    Information Center (SRI-NIC) and entries were placed in the Official
  55.    Host Table for each one.  Data on the number of hosts for pre-DNS
  56.  
  57.  
  58.  
  59. Lottor                                                          [Page 1]
  60.  
  61. RFC 1296              Internet Growth (1981-1991)           January 1992
  62.  
  63.  
  64.    years comes from copies of the host table at selected times.  The DNS
  65.    system was introduced around 1984 but took almost 4 years before it
  66.    was fully implemented on the Internet.  However, by this time many
  67.    hosts were no longer registered in the Host Table.
  68.  
  69.    In 1986, the ZONE (Zealot Of Name Edification) program was written.
  70.    ZONE was originally intended to be used during the host-table-to-DNS
  71.    transition period.  ZONE would "walk" the DNS tree and build a host
  72.    table of all the information it collected.  This host table could
  73.    then be used by sites that had not yet made the DNS transition.
  74.    However, ZONE was never used for this purpose.  Instead, it was found
  75.    to be useful for collecting statistics on the size of the domain
  76.    system and the Internet.
  77.  
  78.    ZONE could not collect complete data on the DNS until around 1988,
  79.    because early versions of BIND (the popular Unix DNS implementation)
  80.    had major problems with the zone transfer function of the DNS
  81.    protocol.  ZONE has been used in varying ways ever since to collect
  82.    this information.  In the first few years, it was used to produce a
  83.    wall-size chart of the domain tree.  However, the number of domains
  84.    quickly outgrew the size of the wall and the charts were abandoned.
  85.    In later years, statistics on the number of hosts and domains were
  86.    extracted from the resulting host table, sometimes categorizing data
  87.    based on top-level domain names or on computer system type or
  88.    manufacturer.
  89.  
  90.    The time to gather the data also grew from hours to a week, and the
  91.    size of the host table produced soon reached 50 megabytes.  In order
  92.    to reduce the amount of data collected, ZONE is now run in a mode
  93.    collecting only host names and IP addresses, ignoring protocol, host
  94.    information and MX record data.  The host table is then groveled over
  95.    by some utilities (such as sort, uniq and grep) to produce the
  96.    statistics required.  ZONE is currently run every 3 months at SRI.
  97.  
  98. How ZONE Works
  99.  
  100.    ZONE maintains a list of domains and their servers and a flag
  101.    indicating whether information for a domain has been successfully
  102.    loaded from one of the servers. Because of another bug in BIND, ZONE
  103.    must be primed with a list of all the top-level domains and their
  104.    name servers.  It then cycles through the domain list, attempting to
  105.    contact one of the servers for each domain not yet transferred.  When
  106.    a server is contacted (via TCP), a Start of Authority (SOA) query is
  107.    first sent to make sure the server is authoritative for the domain
  108.    being requested.  If so, then a zone transfer query (AXFR) is sent to
  109.    request all the resource records for the domain to be retrieved.
  110.  
  111.    When a name server record (NS) is received, the referenced domain and
  112.  
  113.  
  114.  
  115. Lottor                                                          [Page 2]
  116.  
  117. RFC 1296              Internet Growth (1981-1991)           January 1992
  118.  
  119.  
  120.    server are added to the list of domains to process.  When host
  121.    records (A, CNAME, HINFO, MX) are received, they are added to an in-
  122.    core table of host information.  The program ends when it has cycled
  123.    through the entire list of domains without receiving any new
  124.    information.  It then dumps the table of host information to a
  125.    HOSTS.TXT format file.
  126.  
  127. Problems with Data Collection
  128.  
  129.    For various reasons, some Internet sites do not allow zone transfers
  130.    of their domain servers.  ZONE also eventually gives up trying to
  131.    transfer a domain after too many failures.  The number of domains
  132.    that could not be zone transferred during the 1-Jan-92 ZONE run was
  133.    around 800 out of 17,000.  Additionally, it is assumed that not all
  134.    hosts on the Internet are registered in a domain server.  These
  135.    problems cause the statistics gathered by ZONE to be lower than the
  136.    actual amounts.
  137.  
  138.    Manual review of some of the data collected by ZONE also shows a lot
  139.    of random entries in the DNS.  Misformatted entries may cause bogus
  140.    server or host records to appear.  Many times a server is found to
  141.    not be authoritative for the domain listed.  Sometimes entire domains
  142.    are renamed and their old entries left in place for a transition
  143.    period, thus causing each host within that domain to be counted
  144.    twice.  These problems cause the results of ZONE to be higher than
  145.    the actual amounts.
  146.  
  147.    Manual scanning of the data indicates that the additional entries are
  148.    insignificant compared to the missing entries discussed earlier.
  149.    ZONE data can thus be viewed as the minimum number of Internet hosts,
  150.    and not the actual figures.
  151.  
  152.    A final problem with data collection is that of expense.  Downloading
  153.    domain information from every domain on the Internet generates a
  154.    large amount of network traffic.  It also puts an extra CPU load on
  155.    each domain server it must contact.  An organized effort might be
  156.    considered to have only one such program doing this on the Internet
  157.    at regularly scheduled intervals to keep the problem of multiple data
  158.    collectors from occurring.
  159.  
  160. Scope of the Study
  161.  
  162.    A problem with counting hosts and domains on the Internet is defining
  163.    what the Internet really is.  Finding host entries in the DNS does
  164.    not necessarily indicate that the host is reachable from the
  165.    Internet.  Many companies have mail gateways between the Internet and
  166.    their local nets, thus disallowing direct access.  However, some of
  167.    these companies advertise all their hosts, and some advertise only
  168.  
  169.  
  170.  
  171. Lottor                                                          [Page 3]
  172.  
  173. RFC 1296              Internet Growth (1981-1991)           January 1992
  174.  
  175.  
  176.    the gateway.  Are these hosts on the Internet or not?
  177.  
  178.    Furthermore, many domains in the DNS are just mail-forwarding (MX)
  179.    entries for off-Internet (such as Usenet) sites.  Are these domains
  180.    really part of the Internet and should they be counted in an Internet
  181.    size study?
  182.  
  183.    For the purposes of this study, a host has been defined as a
  184.    [name(s),IP-address(es)] grouping discovered from the DNS.  This
  185.    prevents us from counting a host with multiple names or addresses
  186.    more than once.  However, this does not consider whether the host is
  187.    directly accessible or not.  When ZONE counts the number of domains
  188.    it includes all domains referenced by an NS record in the DNS, thus
  189.    including MX-only domain sites in the final results.
  190.  
  191. N. Results
  192.  
  193.    This section presents data from archive tapes of SRI-NIC from 1981 to
  194.    1986, and statistics gathered by runs of ZONE from 1986 to 1992.
  195.  
  196. N.1 Number of Internet Hosts
  197.  
  198.    The chart below shows the number of IP hosts on the Internet.  These
  199.    are hosts with at least one IP address assigned.  Data was collected
  200.    by ZONE except where noted.  The following two sections are graphs of
  201.    the data in this chart.
  202.  
  203.         Date             Hosts
  204.  
  205.         08/81              213          Host table #152
  206.         05/82              235          Host table #166
  207.         08/83              562          Host table #300
  208.         10/84            1,024          Host table #392
  209.         10/85            1,961          Host table #485
  210.         02/86            2,308          Host table #515
  211.         11/86            5,089
  212.         12/87           28,174
  213.         07/88           33,000
  214.         10/88           56,000
  215.         01/89           80,000
  216.         07/89          130,000
  217.         10/89          159,000
  218.         10/90          313,000
  219.         01/91          376,000
  220.         07/91          535,000
  221.         10/91          617,000
  222.         01/92          727,000
  223.  
  224.  
  225.  
  226.  
  227. Lottor                                                          [Page 4]
  228.  
  229. RFC 1296              Internet Growth (1981-1991)           January 1992
  230.  
  231.  
  232.                         Number of Internet Hosts (linear)
  233. 800|
  234. 780|
  235. 760|
  236. 740|                                                                  *
  237. 720|
  238. 700|
  239. 680|                                                                 .
  240. 660|
  241. 640|
  242. 620|
  243. 600| T                                                              *
  244. 580| h
  245. 560| o
  246. 540| u
  247. 520| s                                                             *
  248. 500| a
  249. 480| n                                                            .
  250. 460| d
  251. 440| s
  252. 420|                                                             .
  253. 400| o
  254. 380| f
  255. 360|                                                            *
  256. 340| H                                                         .
  257. 320| o
  258. 300| s                                                        *
  259. 280| t
  260. 260| s                                                       .
  261. 240|                                                        .
  262. 220|                                                       .
  263. 200|                                                      .
  264. 180|                                                     .
  265. 160|
  266. 140|                                                    *
  267. 120|                                                   *
  268. 100|                                                 ..
  269.  80|                                                *
  270.  60|                                               .
  271.  40|                                              *
  272.  20|                                       ..*...*
  273.   0|...*....*......*......*.....*.*....*...
  274.     -------------------------------------------------------------------
  275.     8     8     8     8     8     8     8     8     8     9     9     9
  276.     1     2     3     4     5     6     7     8     9     0     1     2
  277.                                    Date
  278.     "*"  = data point,  "." = estimate
  279. This graph is a linear plot of the number of Internet hosts.
  280.  
  281.  
  282.  
  283. Lottor                                                          [Page 5]
  284.  
  285. RFC 1296              Internet Growth (1981-1991)           January 1992
  286.  
  287.  
  288.                         Number of Internet Hosts (logarithmic)
  289.  
  290.  
  291.     | 1000000
  292.     |                                                                *.*
  293.     |                                                        ..*.*..*
  294.     |                                                     ...
  295.     | 100000                                          ..**
  296.     |                                              *.*
  297.   H |                                          ...*
  298.   o |                                        .*
  299.   s | 10000                                ..
  300.   t |                                    ..
  301.   s |                               ....*
  302.     |                         ...*.*
  303. 1000|                   ...*..
  304.     |                ...
  305.     |            ...*
  306.     | ..*....*...
  307.  100|.
  308.      -------------------------------------------------------------------
  309.      8     8     8     8     8     8     8     8     8     9     9     9
  310.      1     2     3     4     5     6     7     8     9     0     1     2
  311.                                     Date
  312.  
  313.      "*"  = data point,  "." = estimate
  314.  
  315. This graph is a logarithmic plot of the number of Internet hosts.
  316.  
  317. N.2 Number of Domains
  318.  
  319.    This chart shows the number of domains existing in the Internet
  320.    Domain Name System as collected by ZONE.
  321.  
  322.         Date           Domains
  323.  
  324.         07/88              900
  325.         10/88            1,280
  326.         01/89            2,600
  327.         07/89            3,900
  328.         10/89            4,800
  329.         10/90            9,300
  330.         01/91           11,200
  331.         07/91           16,000
  332.         10/91           18,000
  333.         01/92           17,000
  334.  
  335.  
  336.  
  337.  
  338.  
  339. Lottor                                                          [Page 6]
  340.  
  341. RFC 1296              Internet Growth (1981-1991)           January 1992
  342.  
  343.  
  344. N.3 Distribution of IP Addresses per Host
  345.  
  346.    This chart shows how many hosts have how many IP addresses.  This
  347.    data was collected on 1-Jan-92 and only the first 10 entries are
  348.    shown.
  349.  
  350.      Addresses           Hosts
  351.  
  352.          1              715143
  353.          2                9015
  354.          3                1027
  355.          4                 556
  356.          5                 314
  357.          6                 213
  358.          7                 100
  359.          8                  85
  360.          9                  58
  361.         10                  71
  362.  
  363. N.4 Distribution of Hosts by Top-level Domain
  364.  
  365.    This chart shows the number of hosts per top-level domain (top 40
  366.    only) on 1-Jan-92.  The percentage listed is the increase since 1-
  367.    Oct-91.  Large variations are probably due to problems and variations
  368.    in the collection process; these figures are not meant to be
  369.    authoritative, but serve as reasonable estimates.
  370.  
  371.    243020 edu 13%     13011 fr    4%     1791 dk   4%     357 be  -5%
  372.    181361 com 12%     12770 nl   21%     1662 es  15%     334 gr  14%
  373.     46463 gov 13%     12647 ch   10%     1506 kr   9%     308 br  26%
  374.     31622 au  19%     11994 fi   15%     1111 nz -16%     284 mx  -5%
  375.     31016 de  20%     10228 no    9%     1016 tw  n/a     207 is   0%
  376.     27492 mil 26%      8579 jp    6%      929 za  n/a     146 pl  97%
  377.     27052 ca  22%      4109 net -49%      784 pt  n/a     127 us  25%
  378.     19117 org 10%      3324 at   19%      484 sg 251%      25 tn   0%
  379.     18984 uk 139%      2719 it  197%      448 hk  78%      24 hu  71%
  380.     18473 se  34%      2020 il   14%      374 ie  -7%       6 arpa 0%
  381.  
  382.  
  383.  
  384.  
  385.  
  386.  
  387.  
  388.  
  389.  
  390.  
  391.  
  392.  
  393.  
  394.  
  395. Lottor                                                          [Page 7]
  396.  
  397. RFC 1296              Internet Growth (1981-1991)           January 1992
  398.  
  399.  
  400. N.5 Distribution of Hosts by Host Name
  401.  
  402.    This chart shows the distribution of hosts by their host name on 1-
  403.    Jan-92.  The host name is defined to be the first part of a fully
  404.    qualified domain name.  Only the top 100 names are shown.
  405.  
  406. 384 venus       204 mac4       172 mac9        155 pollux     138 chaos
  407. 356 pluto       201 hobbes     172 mac11       155 frodo      136 bart
  408. 323 mars        201 hermes     170 mac8        153 helios     135 pc5
  409. 288 jupiter     198 thor       169 phoenix     152 mac17      135 larry
  410. 286 saturn      198 sirius     169 mac12       151 vega       135 cs
  411. 285 pc1         196 gw         169 hal         151 mac18      133 odin
  412. 282 zeus        195 calvin     168 snoopy      150 falcon     131 tiger
  413. 262 iris        194 mac5       168 mac13       150 bach       131 sparky
  414. 260 mercury     191 mac10      167 mac15       146 castor     131 ariel
  415. 259 mac1        190 fred       167 mac14       145 sol        130 sneezy
  416. 258 orion       189 titan      167 grumpy      145 dopey      128 mac
  417. 254 mac2        189 pc3        163 gandalf     144 mac20      127 sun1
  418. 240 newton      186 opus       162 pc4         144 mac19      127 rocky
  419. 234 neptune     186 mac6       160 uranus      142 spock      126 pc6
  420. 233 pc2         185 charon     159 mac16       142 euler      125 hydra
  421. 224 gauss       185 apollo     158 sleepy      141 mickey     125 homer
  422. 222 eagle       179 mac7       158 io          141 atlas      124 isis
  423. 213 mac3        179 athena     157 earth       140 maxwell    123 moe
  424. 209 merlin      177 alpha      156 europa      140 happy      123 delta
  425. 207 cisco       172 mozart     155 rigel       140 doc        122 pc10
  426.  
  427. Future Issues
  428.  
  429.    ZONE currently runs on a DECsystem-20 and is written in assembler.
  430.    The amount of data is quickly reaching the limits of the DEC-20
  431.    section address space, and the hardware's ability to survive gets
  432.    slimmer each day.  ZONE assembles all its data in core before dumping
  433.    it to disk.  The implementation does this in order to be able to
  434.    match host nicknames with official names before dumping complete host
  435.    records.  Sometimes a nickname can be in a different domain than the
  436.    official name, complicating simpler methods.
  437.  
  438.    A new version of ZONE needs to be written to run on a modern computer
  439.    system.  A completely new architecture should be designed to handle
  440.    the enormous amount of data collected and expected in the future.
  441.    Data should be kept on disk so that a system crash will not wipe out
  442.    days of collection.  Multiple zone transfers could be occurring in
  443.    parallel to reduce the time needed for data gathering.  A new ZONE
  444.    might run continuously, cycling through the domain system on a cycle
  445.    lasting weeks to a month, updating a local database with statistics
  446.    collected for each domain.  In this way, current statistics on the
  447.    size of the Internet would always be known.  The resulting database
  448.  
  449.  
  450.  
  451. Lottor                                                          [Page 8]
  452.  
  453. RFC 1296              Internet Growth (1981-1991)           January 1992
  454.  
  455.  
  456.    may also be useful for other network information services.
  457.  
  458. RFC References
  459.  
  460.    Libes, D., "Choosing a Name for Your Computer", RFC 1178, Integrated
  461.    Systems Group/NIST, August 1990.  (Also FYI 5.)
  462.  
  463.    Mockapetris, P., "Domain Names - Implementation and Specification",
  464.    RFC 1035, USC/Information Sciences Institute, November 1987.
  465.  
  466.    Mockapetris, P., "Domain names - Concepts and Facilities", RFC 1034,
  467.    USC/Information Sciences Institute, November 1987.
  468.  
  469.    Lazear, W., "MILNET Name Domain Transition", RFC 1031, Mitre,
  470.    November 1987.
  471.  
  472.    Harrenstien, K. Stahl, M., and J. Feinler, "DoD Internet Host Table
  473.    Specification", SRI, October 1985.
  474.  
  475.    Postel, J., "Domain Name System Implementation Schedule - Revised",
  476.    RFC 921, USC/Information Sciences Institute, October 1984.
  477.  
  478. Security Considerations
  479.  
  480.    Security issues are not discussed in this memo.
  481.  
  482. Author's Address
  483.  
  484.    Mark K. Lottor
  485.    SRI International
  486.    Network Information Systems Center
  487.    333 Ravenswood Avenue, EJ282
  488.    Menlo Park, CA  94025
  489.  
  490.    EMail: mkl@nisc.sri.com
  491.  
  492.  
  493.  
  494.  
  495.  
  496.  
  497.  
  498.  
  499.  
  500.  
  501.  
  502.  
  503.  
  504.  
  505.  
  506.  
  507. Lottor                                                          [Page 9]
  508.  
  509.